/ 3D 视觉

3D 视觉 AI

寻找最新最佳的3D 视觉人工智能。浏览最全面的AI数据库，每日持续更新。

SCAIL

SCAIL 代表了角色图像动画领域的突破性进展，旨在生成逼真且时间连贯的视频，其中角色的外观与提供的参考图像完美一致，同时忠实地复制驱动视频中复杂的动作。SCAIL 的核心是引入了一种新颖的可扩展 3D 姿态表示，它通过使用 GPU 上的光线步进（ray marching）的有效 3D 体素管线，将传统 2D 骨架和参数化 SMPL 模型的优势统一起来

GPT-5.2

NewPaid效率企业工具

GPT 5.2 是 OpenAI 的最新前沿模型系列，专为以更高的质量、更低的错误率和比前几代更强的推理能力来处理专业知识工作和长期代理工作流程而构建。它引入了三个主要变体——GPT-5.2 Instant、GPT-5.2 Thinking 和 GPT-5.2 Pro——每个变体都针对速度和深度的不同权衡进行了微调，并且都可以在 ChatGPT 的付费

Mago Studio

NewPaid视频创意工具

Mago Studio 是一款先进的人工智能视频工具，专为旨在精确、灵活地转换任何素材的创意专业人士设计。它通过视频到视频的工作流程，使用户能够轻松地为实景拍摄或 3D 动画添加风格。该工具特别适用于动画、电影、游戏过场动画和广告制作，有助于降低制作成本并加快创意工作流程。它的功能扩展到使雄心勃勃的视觉概念得以实现，使创作者能够探索独特的审美，提升音乐

Mochi 1

NewFree视频开源

Mochi 1 是一款先进的开源视频生成模型，以其高保真度的运动和对文本提示的强力遵循而闻名。它在运动质量和提示对齐方面实现了显著飞跃，推动了开源视频创作的极限。Mochi 1 采用宽松的 Apache 2.0 许可证，可用于个人和商业用途，重点是照片级真实感视频生成，而非动画内容。该模型能够在 30 帧/秒的速度下产生流畅的视频输出，时长可达 5.4

Hunyuan3D-Part

NewFree图形3D 建模

Hunyuan3D-Part 是一个从图像生成 3D 部件的管道，包含两个关键组件：P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中，以获取语义特征、部件分割和部件边界框。然后，X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件，并应用于计算机视觉、机器人和计算机辅助设计等各个领域

HunyuanVideo-1.5

NewFree视频内容生成

Hunyuan Video 1.5 是一款视频生成模型，仅用 83 亿参数即可提供顶级质量，显著降低了使用门槛。它可以在消费级 GPU 上流畅运行，使每位开发者和创作者都能轻松使用。此存储库提供了生成创意视频所需的实现和工具。该模型实现了最先进的视觉质量和运动连贯性，并支持在消费级 GPU 上高效推理。这一成就建立在几个关键组件之上，包括精心策划的数据

Lumine AI

NewPaid机器人技术游戏AI

Lumine AI 是一个先进的平台，专为开发能够在充满挑战的 3D 开放世界环境中执行复杂任务的通才智能体而设计。它采用了一种视觉-语言模型，该模型在一个端到端的框架内无缝集成了感知、推理和行动。该平台以 5 Hz 的频率处理原始像素数据，并将其转换为精确的 30 Hz 键盘和鼠标动作。这种高效的处理模式使人工智能能够执行各种活动，例如探索、解谜、战

Stable Diffusion 3.5

NewFreemium图像处理创意工具

Stable Diffusion 3.5 是 Stability AI 发布的一款强大的文生图生成模型，具有多种针对不同创意和专业需求的模型变体。此次发布包括 Stable Diffusion 3.5 Large、Large Turbo 和 Medium 版本，每个版本都旨在平衡图像质量、速度和提示词遵循度。这些模型使用户能够创建具有卓越保真度的高质量

Depth Anything 3

NewFree视觉3D建模

Depth Anything 3 (DA3) 是一个能够从任意数量的视觉输入（有或没有已知的相机姿态）中预测空间一致几何形状的模型。DA3 带来了两个关键的见解：单个纯粹的 Transformer 作为骨干网络就足够了，无需架构上的专业化；以及单一的深度射线预测目标使得复杂的**多任务学习**变得不必要。通过我们的师生训练范式，该模型在细节和泛化性方面

VideoFrom3D

NewPaid图形视频生成

VideoFrom3D 从粗糙的几何体、摄像机轨迹和参考图像合成高质量的 3D 场景视频。该方法简化了 3D 图形设计工作流程，实现了灵活的设计探索和交付成果的快速制作。从粗糙几何体合成视频的一个简单方法可能是基于几何结构来调控视频扩散模型。然而，现有的视频扩散模型由于难以同时模拟视觉质量、运动和时间一致性，在生成复杂场景的高保真结果时存在困难。

Marble World Model

NewFreemium3D世界模型

Marble 是 World Labs 开发的首个商用生成式世界模型，该公司由人工智能先驱李飞飞领导。它专注于使用文本提示、图像、视频和 3D 布局图等各种输入方法生成可编辑且持久的 3D 环境。该产品提供高保真度的空间一致性，并支持对生成的世界进行无缝探索，使其适用于游戏开发、电影视觉效果、虚拟现实和机器人模拟等应用。Marble 的独特之处在于它允

SAM 3D

NewFree视觉3D 建模

SAM 3D 是一个强大的 3D 重建模型，能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D，我们推出了两个新模型：SAM 3D Objects，它实现了物体和场景重建；SAM 3D Body，它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能，将静态 2

TRELLIS 3D AI

NewFree建模资产创建

TRELLIS 3D AI 是一款尖端的工具，旨在通过将标准的二维图像转换为详细的三维模型，彻底改变三维资产的创建过程。此过程由先进技术驱动，该技术分析上传图像的视觉数据，以重建复杂的几何形状并应用生动、准确的纹理。它经过精心设计，可利用独特的 SLAT 表示法来保持源材料的关键结构元素，从而实现专业级输出，使其可供广泛的创作者使用，这些创作者寻求高质

Banana AI.org

NewFree编辑照片工具

Banana AI 是一款尖端的、完全免费的照片编辑应用程序，它利用先进的生成模型的强大功能，彻底改变用户处理图像处理的方式。通过接受简单的文本指令，用户可以控制精确的编辑、应用全面的风格转换或重建上传图像中的视觉元素。这种由文本提示驱动的工作流程带来了一种直观且高效的编辑体验，在几秒钟内就能产生一致的高质量视觉效果，而无需具备复杂的图形设计软件的先验

VeeSpark AI Video Generator

NewFreemium视频创建

VeeSpark 的 AI 视频生成器是一款功能强大的工具，旨在轻松将您的创意概念转化为引人入胜的视频。无论您是拥有完整的脚本、一系列故事板框架，还是仅仅拥有一个引人入胜的想法，我们的 AI 引擎都能高效地将您的输入转化为高质量的视频内容。这使其成为需要快速有效地制作引人入胜的视觉效果的内容创作者、营销专业人士和教育工作者的理想解决方案。该生成器简化了

VoxDeck

NewFreemium推介会视觉叙事

VoxDeck 是一款人工智能演示文稿创作工具，它彻底改变了演示文稿的制作流程，将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验，并运用 3D 图表、交互式视觉效果和逼真的头像等元素，动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程，节省专业人士、教育工作者和商业用户的时间和精力，同时确保演

Ultra3D

NewPaid图形 3D建模

Ultra3D 是一个高效的 3D 生成框架，可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局，从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像，在视觉保真度和用户偏好方面均达到了最佳性能。

Ultra3D 的核

PhysX-3D

NewFree模拟 3D建模

PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集，系统地涵盖五个基本维度：绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源，从而促进能够生成物理可信资源的 3D

SpatialTrackerV2

NewPaid追踪3D 视觉

SpatialTrackerV2 是一个用于 3D 点追踪的全新框架，可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同，我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动，所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练，包括合成序列、摆拍的

Pixel3DMM

NewPaid重建 3D建模

Pixel3DMM 是一款经过微调的 DINO ViT，用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计，并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头，并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练，最终生成了超过 1000 个身份和 976,000 张图像。这使